智能论文笔记

Improved Reinforcement Learning in Cooperative Multi-agent Environments Using Knowledge Transfer

Mahnoosh Mahdavimoghaddam , Amin Nikanjam , Monireh Abdoos

分类：人工智能 | 机器学习

2021-07-20

如今，合作多代理系统用于学习如何在大规模动态环境中实现目标。然而，在这些环境中的学习是具有挑战性的：从搜索空间大小对学习时间的影响，代理商之间的低效合作。此外，增强学习算法可能遭受这种环境的长时间的收敛。本文介绍了通信框架。在拟议的沟通框架中，代理商学会有效地合作，同时通过引入新的状态计算方法，状态空间的大小将大大下降。此外，提出了一种知识传输算法以共享不同代理商之间的获得经验，并制定有效的知识融合机制，以融合利用来自其他团队成员所收到的知识的代理商自己的经验。最后，提供了模拟结果以指示所提出的方法在复杂学习任务中的功效。我们已经评估了我们对牧羊化问题的方法，结果表明，通过利用知识转移机制，学习过程加速了，通过基于状态抽象概念产生类似国家的状态空间的大小均下降。

translated by 谷歌翻译

在本文中，我们提出了一种一阶分布式优化算法，该算法对拜占庭式失败 - 肢体和潜在的对抗性行为非常强大，在该行为中，所有参与的药物都容易发生失败。我们随着时间的推移将每个代理的状态建模为两国马尔可夫链，该链在不同时间时指示拜占庭或可信赖的行为。我们在任何给定时间均未设置对拜占庭代理的最大数量的限制。我们根据三层防御设计我们的方法：1）时间稳健聚集，2）空间稳健聚集和3）梯度归一化。我们研究了两个用于随机优化的设置，即样品平均近似值和随机近似。我们提供了强烈凸出和平滑非凸成本功能的方法的收敛保证。

translated by 谷歌翻译

我们研究了随机线性匪徒（LB）中的两个模型选择设置。在我们将其称为特征选择的第一个设置中，LB问题的预期奖励是$ M $特征映射（模型）中至少一个的线性跨度。在第二个设置中，LB问题的奖励参数由$ \ MATHBB r ^ d $中表示（可能）重叠球的$ M $模型任意选择。但是，该代理只能访问错过模型，即球的中心和半径的估计。我们将此设置称为参数选择。对于每个设置，我们开发和分析一种基于从匪徒减少到全信息问题的算法。这允许我们获得遗憾的界限（最多超过$ \ sqrt {\ log m} $ factor）而不是已知真实模型的情况。我们参数选择算法的遗憾也以模型不确定性对数进行缩放。最后，我们经验展现了使用合成和现实世界实验的算法的有效性。

translated by 谷歌翻译